机器学习分类
通常,一个学习问题是通过一系列的n个样本数据来学习然后尝试预测未知数据的属性。如果每一个样本超过一个单一的数值,例如多维输入(也叫做多维数据),那么它就拥有了多个特征。
我们可以把学习问题划分为几个大的来别:
监督学习
在监督学习中,这些数据自带了我们想要预测的附加属性(scikit-learn监督学习链接),这个问题包括:
分类
样本属于属于两类或者多类,我们想从已经被标记的数据中来预测未知数据的类别。一个分类问题的例子就是手写字识别。这个例子的目的是从有些的类别中识别出输入向量的类别。对于分类的另一种想法是作为监督学习的一种分离的表格(不是连续的),在这个表格中,一个是被限制的类别数量,而且对于每个类别都有N个样例被提供;一个是尝试用正确的类别或者类来标记他们。
回归
如果期望的输出是由一个或者更多的连续的变量组成,那么就叫做回归。回归问题的例子将通过一条鲑鱼的年龄和重量预测它的长度。
无监督学习
在无监督学习里面,训练数据是由一组没有任何类别标签值的一系列输入向量组成。这种问题的目的是可能可以在这些数据里发现相似的样例组,这些相似的样例被称作聚类。或者在输入空间里决定数据分布,称之为密度估算;或者将数据从高维空间映射到二维或三维空间中,称之为数据可视化问题。(无监督学习链接)
训练集和测试集
机器学习是关于学习数据集的一些属性然后将它们应用到新的数据上。这就是为什么在机器学习中评价一个算法的通常惯例是把数据集切分为两个数据集,其中一个叫做训练集,用来学习数据的属性;另一个叫做测试集,在测试集上测试那些属性。
在Ubuntu上安装Scikit-Learn等Python packages
安装Python
Ubuntu 14.04 自带了Python 2.7 和Python 3.4,默认使用Python 2.7。所以这里并不需要做什么,只要通过下面的指令看看python是否安装正确。
安装常用packages
|
|
安装pip
|
|
查看已安装的packages,在python中输入:
|
|
安装scikit-learn-1-安装
|
|
本文总阅读量 次
本文由 Yu Zhang 发表于 Yu Zhang's Blog ,采用署名-非商业性使用-禁止演绎 3.0进行许可。
非商业转载请注明作者及出处。商业转载请联系作者本人。